Amazon Omics入門(Omics Storageへデータ保存)

Omics Strageへデータ保存する手順と注意点をまとめてみました。

#Amazon Omics

#Bioinformatics

#AWS

inomaso

2023.02.22

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

こんにちは！コンサル部のinomaso(@inomasosan)です。

最近、大村保貴にAmazon Omicsを教えて貰う機会があり、最初の一歩としてOmics Storageへのファイル保存をレクチャーして貰ったので、復習も兼ねてブログにすることにしました。

ざっくり前提知識

そもそもゲノムデータ分析をどのような流れで実施しているかを把握するには、以下の図がわかりやすかったです。

(出典元)GITC 2021 冬 NGS解析⼊⾨　NGS基本データフォーマット

Omics Storageの以下ストアにゲノムデータをそれぞれ保存することで、Omics Workflowsの処理・解析に使用することができます。

リファレンスゲノム(FASTA形式)を保存するリファレンスストア
リード配列、シーケンスデータ(FASTQ形式等)を保存するシーケンスストア

また、Omics Storageに保存することでS3バケットよりも保存コストが安くなるという側面もあります。ゲノムデータはサイズが肥大化しやすい認識なので、このメリットは大きいと思います。

やってみた

概要

今回はOmics Analyticsによる分析に必要なデータを、Omics Storageに保存するところまで実施していきます。データを保存する手順を図解したブログがありますので、最初にこちらを見て頂けると理解が捗るかと思います。

尚、今回はAmazon Omicsが対応しているバージニア北部リージョンで検証しています。

S3に必要なデータを保存

Omics Storageの仕様でデータはS3バケットを経由して保存する必要があります。
2023/2/22時点でOmicsコンソールにてS3バケット作成までは対応していないため、S3コンソールで事前に作成しておきましょう。

尚、S3バケットはAmazon Omicsと同じリージョンに作成しなければならないので注意しましょう。

S3バケットの作成が完了したら、FASTAとFASTQのサンプルファイルをダウンロードしていきます。今回はゲノムが小さいショウジョウバエのデータをダウンロードします。

リファレンスゲノム(FASTA形式)

以下ページのDownloadボタンを押下します。

National Library of Medicine - Fruit fly (Drosophila melanogaster)

Download PackageでSelect file sourceでRefSeq only (1)を選択し、Downloadボタンを押下します。

Zipファイルをダウンロードできたら解凍して、GCF_000001215.4_Release_6_plus_ISO1_MT_genomic.fnaというファイルを、先ほど作成したS3バケットにアップロードします。

リード配列、シーケンスデータ(FASTQ形式)

以下ページのGSM868349_Tot_0-1h_emb_NoAdapter_inserts.fastq.gzをftpかhttpのリンクを押下して、ダウンロードします。

こちらのファイルは解凍不要なため、そのままS3バケットにアップロードします。

リファレンスストアの作成とデータ保存

FASTAファイルをOmics Storageのリファレンスストアへ保存していきます。
内部的な動作としてはS3からデータをインポートする流れとなります。

まずはリファレンスストアの作成が必要なのですが、Omicsの仕様で1リージョンに1つのリファレンスストアのみ作成可能です。名前の変更もできないため、共通の命名にしておいた方が良いでしょう。

まずは先ほど作成したS3バケットと同じリージョンを選択しOmicsコンソールを開きます。左ペインのReference storeからImport reference genomeをクリックします。

Create reference genome import jobの画面が表示されるので、まずはReference storeでManual creatを選択し、Reference store nameはMyReferenceStoreとしました。

Data encryptionはデフォルトのAWS管理キーであるUse AWS owned keyにしておきます。

General Detailsで先ほどS3バケットにアップロードしたショウジョウバエのFASTAファイルを指定します。 Reference genome nameにFruitflyと入力し、Select reference from S3にS3バケットのFASTAファイルのS3 URIを指定していきます。今回入力するS3 URIはs3://＜S3バケット名＞/GCF_000001215.4_Release_6_plus_ISO1_MT_genomic.fnaとなりますので、S3バケット名は適宜置き換えてください。

Service accessでOmicsにS3やKMS用のIAMロールを指定or新規作成を選択できます。初回はIAMロールがないので、Create and use a new service roleを選択します。
IAMロール名はデフォルトですとOmicsStorage-20230222T140792といった名前で生成されるので、次回以降にも汎用的に使用できる名前に変更してあげます。今回はOmicsStorage-service-roleという名前にします。

最後に画面右下のImport reference genomeをクリックします。 StatusがCompletedとなっていることを確認しましょう。

シーケンスストアの作成とデータ保存

FASTQファイルを保存するために、Omics Storageのシーケンスストアを作成します。
左ペインのReference storeからImport reference genomeをクリックします。

General detailsのSequence store nameは、ショウジョウバエのデータのためFruitflySequenceStoreと入力します。

Data encryptionはデフォルトのAWS管理キーであるUse AWS owned keyにしておきます。

最後に画面右下のCreate a sequence storeをクリックします。

ショウジョウバエ用のシーケンスストアが作成されたことを確認します。

次にFASTQファイルをシーケンスファイルに保存するために上図のImport genomic filesをクリックします。

Store detailsでショウジョウバエ用のシーケンスストアが選択されていることを確認します。 Reference genomeでリファレンスストアに保存したリファレンスゲノムであるFruitflyを選択します。

Service accessは先ほど作成したIAMロールを使用するため、Use an existing service roleでOmicsStorage-service-roleを選択します。

Manifest fileは事前にJSONかYAMLで作成する必要があります。これはリファレンスストアに保存したリファレンスゲノムと関連づけるために作成するファイルとなります。

以下、Manifest fileのサンプル例です。

sourceFiles:
  source1: "s3://＜S3バケット名＞/GSM868349_Tot_0-1h_emb_NoAdapter_inserts.fastq.gz"
sourceFileType: "FASTQ"
subjectId: "Fruitfly"
sampleId: "SampleFruitfly"
referenceArn: "arn:aws:omics:us-east-1:＜AWSアカウントID＞:referenceStore/＜リファレンスストアID＞/reference/＜リファレンスゲノムID＞"
name: "Fruitfly"

sourceFilesはS3バケットに保存したファイルのS3 URIで、referenceArnはリファレンスストアに保存したショウジョウバエのリファレンスゲノムのARNとなりますので、適宜置き換えてください。

StatusがCompletedとなっていることを確認しましょう。